格“物”致知:多模态预训练再次入门
©PaperWeekly 原创 · 作者|Chunyuan Li
单位|Microsoft Research Researcher
研究方向|深度生成模型
本文简要阐述了基于视觉和语言信息的多模态学习的缘由和发展现状,并介绍一种多模态预训练的方法 Oscar 来引导大家入门了解这个领域。为什么说是再次入门呢?因为前段时间在已经涌现出不少多模态预训练的方法,而我们展现一种另外一种打开多模态数据的方式,希望离多模态预训练的正确打开方式更近一些。
我们人类往往是通过多种渠道感知外部世界的,例如,用眼睛看到的图像,或者用耳朵听到的声音。尽管任何单个渠道可能都不完整或嘈杂,但是人类可以自然地对齐并融合从多个渠道收集的信息,以提取了解世界所需的关键概念。
人工智能的核心愿望之一是开发一种技术,以赋能计算机,使其具有从多模态(或多通道)数据中有效学习的能力。具体的一些功能,举例来说:
Visual Question Answering: 基于图片的语言问答
Image-Text Retrieval: 以文本为输入来搜索出与最语义上相似的图像
Image Captioning: 使用自然语言描述图像的内容
其它很多同时涉及到语言和图片的任务
从实用的角度讲,现代的计算机系统与人交互的信息通常也是模态的,包括语言,图片,语音等等, 比如微信里的对话方式,购物网站上的商品展示等等。多模态往往会比单一模态提供更加丰富的信息,达到更好的用户体验。
举个例子,在疫情状态下远程工作的我们,往往通过进行语音沟通,但有时候搭配着屏幕共享(视觉信息)是不是能更加愉快地聊天呢?这就是多模态学习的一种体现。
多模态学习初入门
最近,视觉和语言预训练(Vision-Language Pretraining, 简称 VLP)在解决多模态学习方面已显示出巨大的进步。这类方法最有代表性地通常包括如下两步:
预训练:是以自监督的方式在海量“图像-文本”数据(Image-Text Pair,或者叫做“图文对”)上训练大型的基于 Transformer 的模型(例如根据上下文预测被掩盖掉的语言或者图像的元素)
微调:可以对预训练模型的交叉模式表示进行微调,以适应各种下游视觉和语言任务
VilBERT [1] , LXMERT [2] , VL-BERT [3] , Unicoder-VL [4] , UNITER [5] , VLP [6] , 12-in-1 [7] , ...(闲话:排名不分先后,如有漏缺,请联系作者改动)
但是,现有的 VLP 方法只是将图像区域特征和文本特征连接起来作为模型的输入以进行预训练,并不为模型提供任何线索,希望模型能利用 Transformer 的自我注意机制,使用蛮力来学习图像文本语义对齐方式。
多模态学习再入门:格“物”以致知
以物体为定位点
▲ 图1:该图显示了Oscar通过它在语义空间中表示图文对的过程。(a)输入图像-文本对的示例。(b)物体标签用作定位点,以将图像区域与预训练语言模型的词嵌入对齐。(c)预训练的语言语义空间比图像区域特征更具区分性。
Oscar训练方式
▲ 图2:Oscar的输入数据表达。我们将(图像-文本)对表示为三元组(橙色的单词序列,蓝色的物体标签,绿色的图片区域特征)。Oscar提出了用物体(在这个例子里是“狗”或“沙发”)来对齐跨域语义;如果删除物体,Oscar退化为以前的预训练方法。输入三元组可以从两个角度理解:模态视角和字典视角。
输入表示。如下图 2 所示,我们将每个(图像-文本)样本定义为一个三元组(单词序列,物体标签,区域特征)。
预训练目标。根据三元组中三个项目的分组方式,我们从两个不同的角度查看输入:模态视角和字典视角。每一种视角都允许我们设计一个新颖的预训练目标:
1)字典视图的掩盖码恢复损失,它衡量模型根据上下文恢复丢失元素(单词或对象标签)的能力;
2)模态视角的对比损失,它衡量模型区分原始三元组及其“污染”版本(即原始物体标签被随机采样的标签替换)的能力。
Visual Question Answering (VQA) [15] Graph Question Answering (GQA) [16] Natural Language Visual Reasoning for Real (NLVR2) [17] Image-Text Retrieval [18] Text-Image Retrieval [19] Image Captioning on COCO dataset [20] Novel Object Captioning (NoCaps) [21]
▲ 图3:Oscar以三元组作为输入,以两个损失函数为目标进行预训练(在单词和标签上掩盖恢复损失,以及在标签和其他标签之间的对比损失),然后对其进行微调以实现五个理解和两个生成任务。
实验效果:六个任务上的最优结果
为了考虑参数的利用效率,我们在下表 1 中比较了不同大小的模型。Oscar 在六项任务上均达到了最新水平。在大多数任务上,我们的基本款模型(base model)要优于以前的大型模型(large model),通常情况下会大大提高。
它表明 Oscar 具有很高的参数利用效率,我们认为部分原因是物体的使用大大简化了图像和文本之间语义对齐的学习。
在这里,VLP 基线方法是从 UNITER [5] , VilBERT [1] , LXMERT [2] , VLP [6] , VL-BERT [3] , Unicoder-VL [4] , 和 12-in-1 [7] 收集的。请注意,Oscar 接受了 650 万对的预训练,这比 UNITER 的 918 万对和 IXME 的 960 万对都少,这也说明了 Oscar 的数据利用率很高。
▲ 表1: Oscar在六项主流的视觉和语言任务上均取得了最佳表现。下标为S,B和L的SoTA(最新技术水平)表示通过小型,基础和大型模型(尺寸相对于BERT大小而测量)可获得的最佳性能。蓝色表示任务的最佳结果,灰色背景的行表示由Oscar产生的结果。
改进的图像文本对齐效果
▲ 图4:使用t-SNE进行2D可视化。来自同一对象类的点共享相同的颜色。Oscar(左)改进了不带物体标签的基线上的跨域对齐(右)。红色和灰色曲线分别覆盖具有相同和相关语义的物体。
展望未来
点击以下标题查看更多往期内容:
#投 稿 通 道#
让你的论文被更多人看到
如何才能让更多的优质内容以更短路径到达读者群体,缩短读者寻找优质内容的成本呢?答案就是:你不认识的人。
总有一些你不认识的人,知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁,促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。
PaperWeekly 鼓励高校实验室或个人,在我们的平台上分享各类优质内容,可以是最新论文解读,也可以是学习心得或技术干货。我们的目的只有一个,让知识真正流动起来。
📝 来稿标准:
• 稿件确系个人原创作品,来稿需注明作者个人信息(姓名+学校/工作单位+学历/职位+研究方向)
• 如果文章并非首发,请在投稿时提醒并附上所有已发布链接
• PaperWeekly 默认每篇文章都是首发,均会添加“原创”标志
📬 投稿邮箱:
• 投稿邮箱:hr@paperweekly.site
• 所有文章配图,请单独在附件中发送
• 请留下即时联系方式(微信或手机),以便我们在编辑发布时和作者沟通
🔍
现在,在「知乎」也能找到我们了
进入知乎首页搜索「PaperWeekly」
点击「关注」订阅我们的专栏吧
关于PaperWeekly
PaperWeekly 是一个推荐、解读、讨论、报道人工智能前沿论文成果的学术平台。如果你研究或从事 AI 领域,欢迎在公众号后台点击「交流群」,小助手将把你带入 PaperWeekly 的交流群里。